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摘 要 : 针对 超 宽 带 及 多 波束 接收 系统 海量 天 文 信号 实时 高 效 传输 与 处 理 问题 ， 对 基于 
FPGA+GPU 的 主流 终端 设备 软件 系统 进行 了 测试 分 析 ， 超 宽带 接收 设备 要 求 终 端 系统 软件 
能 够 在 更 宽带 宽 ， 更 高 时 间 、 频 率 分 辨 率 条 件 下 ， 实 现实 时 数据 流传 输 与 处 理 。 结 合 大 口径 
射电 观测 设备 未 来 发 展 方向 提出 了 利用 高 速 并 行 环 形 缓 冲 区 实现 数据 流 缓存 、 基 于 GPU 集 
群 实现 数据 流 实时 处 理 、 基 于 BeeGFS 实现 分 布 式 并 行 数据 存储 ,模块 化 构建 射电 天 文 信号 
传输 管道 软件 的 设计 思路 。 
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多 波束 和 PAF 接收 技术 的 发 展 使 得 天 文 观 测 设备 获取 数据 的 能 力 不 断 提升 ， 射 电 天 文 
观测 数据 正在 以 一 种 实时 、 海 量 、 持 续 的 模式 增长 ， 终 端 系统 中 海量 天 文 信号 的 高 效 传输 、 
实时 处 理 , 需要 异 构 的 分 布 式 计算 与 存储 平台 作为 支撑 , 数据 传输 过 程 中 首先 将 接收 到 的 信 
号 进行 数字 化 ,实现 通道 划分 .RFI 消减 等 预 处 理 , 这 些 处 理 可 在 ROACHLI.SNAP'、RFSoCD 
等 系列 开发 板 卡 上 执行 。 硬件 板 卡 与 服务 器 平台 通过 高 速 网 络 连接 , 将 数据 打包 并 通过 网 络 
传输 至 GPU 服务 器 进行 复杂 算法 处 理 。 基 于 FPGA+GPU 的 混合 架构 平台 对 软件 性 能 提出 
了 更 高 要 求 ， 高 速 实时 传输 天 文 数据 包 时 需要 考虑 高 IO 环境 下 的 网 络 数据 包 丢 失 问题 ， 
Linux 内 核 在 处 理 宽带 网 络 流量 时 有 很 大 的 开销 , 由 于 网 络 协议 是 UDP, 系统 必须 处 理 丢 失 、 
无 序 和 重复 的 数据 包 ， 否 则 会 造成 相位 信息 缺失 , 针对 脉冲 星 数 据 ， 丢 包 可 对 脉冲 星 的 周期 


预测 和 折 和 县 等 产生 严重 影响 。 实 现 CPU 与 GPU 之 间 数 据 高 速 流转 时 ，GPU 高 效 实时 数据 
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处 理 阶 段 ,CPU 与 GPU 之 间 通 信 速 率 可 能 会 造成 的 性 能 瓶颈 ,也 是 需要 考虑 并 解决 的 问题 。 

射电 天 文 数字 终端 系统 中 可 实现 数据 包 高 速率 实时 传输 与 预 处 理 的 程序 称 为 管道 中 管 
道 是 一 种 编程 实现 ,数据 被 链 式 的 连接 在 一 起 ,全 部 同时 在 其 内 部 流动 。 管道 包含 多 个 处 理 
单元 ,每 个 单元 执行 特定 任务 ,最 基础 和 主要 的 功能 是 提供 缓存 模块 ， 暂 时 存储 数据 ， 实 现 
数据 的 实时 流转 。 应 用 于 射电 天 文 异 构 终端 系统 的 管道 数据 传输 主要 包括 三 个 阶段 ,数据 接 
收 阶段 、 基 于 CPU/GPU 的 处 理 阶 段 、 数 据 输出 阶段 ， 通 过 缓冲 模块 实现 从 数据 接收 到 写 入 
人 磁盘 流程 中 的 高 效 传输 ， 通 过 调用 不 同 阶段 的 程序 模块 实现 数据 流传 输 过 程 中 的 实时 处 理 。 

文章 研究 并 分 析 了 可 部 署 在 射电 望远镜 终端 系统 上 的 数据 管道 ， 提 出 了 基于 
FPGA+GPU 的 动态 、 高 性 能 实现 海量 射电 天 文 数据 流 实时 传输 、 处 理 和 监控 的 管道 设计 思 
路 ， 为 未 来 新 疆 110 米 射电 望远镜 CQTT) 叫 开 发 定制 多 功能 实时 数据 流传 输 与 处 理 管道 软 
件 提 供 参 考 。 


1 现 有 射电 天 文 数据 流 管道 软件 


针对 射电 天 文 数据 的 实时 高 速 传输 , 国外 已 取得 了 系列 研究 成 果 , 提供 了 开源 CPU/GPU 
数据 流 管道 软件 ， 包 括 GUPPI daq’, PSRDADA*, Hashpipe. Bifrost. Kotekan*, Pelican?, 
Cobalt， 国 内 相关 研究 现 正 处 于 起 步 阶 段 。 

GUPPI_daq 是 GUPPI 数据 采集 子 系统 ， 通 俗 灵活 、 使 用 简单 ， 已 有 十 多 年 的 历史 ; 
(a PSRDADA 和 Hashpipe 均 为 高 吞吐 量 流 数据 处 理 而 设计 , EA) 2} BDF Parkes 4 GBT", 
Bifrost 是 用 于 快速 管道 开发 的 开源 软件 框架 , 专门 为 射电 天 文 实时 数据 流 处 理 而 设计 , 用 于 
LWAD 后 端 ; Kotekan 作为 CHIME! 高 度 优化 的 流 数据 处 理 框架 ， 更 注重 效率 和 吞吐 
Pelican 提供 了 高 度 抽象 的 应 用 程序 接口 ， 为 静态 、 准 实时 处 理 目 的 而 设计 ; Cobalt 管理 通 
过 网 络 和 GPU 的 数据 流 ， 主 要 应 用 于 LOFAR 波束 合成 。 


Ma 


1.1 GUPPI_daq 


应 用 于 GBT 的 GUPPI daq， 是 脉冲 星 数字 终端 GUPPI 的 数据 采集 软件 ，GUPPI daq 


实现 了 数据 流 实时 接收 和 处 理 , 并 以 PSRFITS 格式 记录 文件 , 实时 处 理 选 项 包括 基础 模式 、 


? https://github.com/demorest/guppi_daq 

3 http://psrdada.sourceforge.net/Parkes 

4 http://lwlab.dunlap.utoronto.ca/kotekan/index.html 
> http://adsabs.harvard.edu/abs/201 5ascl.soft07003M 
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折 受 模式 和 子 带 模式 。 

GUPPI 基于 CASPER FPGA 板 卡 处 理 800MHz 带宽 、8bit 量化 数据 ,在 10Gb 以 太 网 环 
境 下 封装 成 UDP 数据 包 发 送 ， 由 GUPPI dag 负责 接收 ， 并 将 数据 保存 至 磁盘 上 。 传输 过 程 
中 实现 与 控制 子 系统 交互 ,提供 人 机 交互 的 软件 界面 ,并 记录 监控 参数 ,保存 到 输出 文件 中 。 

GUPPI_daq 使 用 多 线程 模式 工作 ,线程 之 间 通 过 基于 共享 内 存 的 环形 缓冲 区 传输 数据 。 
在 基础 模式 下 ，GUPPI daq 只 使 用 两 个 处 理 线程 和 一 个 数据 缓冲 区 ， 由 网 络 处 理 线程 负责 
接收 FPGA 生成 的 UDP 数据 包 ， 通 过 检查 自 定义 的 序号 来 判断 数据 包 是 否 丢 失 ， 将 收 到 的 
数据 保存 在 环形 缓冲 区 内 ， 丢 弃 的 数据 填充 为 零 ， 同 时 从 状态 缓冲 区 读 取 头 信息 ， 将 其 复制 
到 数据 块头 中 。 写 盘 处 理 线程 读 取 已 写 满 的 缓冲 区 并 解析 数据 块头 信息 ， 以 PSRFITS 格式 
保存 在 磁盘 上 。 


/ 
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> 高 速率 运行 时 ，GUPPI daq 存在 磁盘 写 入 速度 的 限制 问题 。 通 过 高 速 以 太 网 接收 数据 
N 

CO IY, SOOMB/s 数据 接收 速率 下 ， 出 现 了 少量 数据 丢 包 站。 

= 1.2 Hashpipe 

Al Hashpipe 是 早期 GUPPI dadq 的 衍生 , 最初 作 为 NRAO VEGASI9 的 高 效 共享 管道 引擎 ， 
al 由 David Macmahon 改写 ， 可 用 于 FX MAR, RARA, OPERIM, FRB, SETI, J 
> TAHERE FAST, “RE” MAM, 


X Hashpipe 设置 共享 内 存 段 和 信和 号 量 机 制 等 功能 , 在 运行 时 基于 命令 行 参数 动态 构建 管道 ， 
= 整体 结构 如 图 1 所 示 ， 采 用 模块 化 架构 设计 ， 蓝 色 部 分 表示 插件 ，Hashpipe 插件 是 一 个 共享 
© 库 , 定 义 了 应 用 程序 特定 的 线程 模块 、 共 享 数据 缓冲 区 等 功能 模块 , 并且 插 件 允 许 用 户 创建 ， 

以 便 在 Hashpipe 运行 时 中 调用 ;红色 部 分 表示 可 执行 文件 ， 在 Hashpipe 运行 时 动态 调用 已 
定义 插件 。 


6 https://casper.ssl.berkeley.edu/wiki/images/2/2b/FAST_Hashpipe_Pipeline.pdf 
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图 1 Hashpipe 整体 框架 


Figure 1 Hashpipe overall framework 
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Data Out 


Hashpipe 核心 是 灵活 的 环形 缓冲 区 , 模拟 连续 内 存 块 , 并 实现 了 数据 在 多 个 线程 之 间 的 


流转 和 共享 ， 利 用 CPU FE 
保证 数据 快速 捕获 并 按 正 确 顺序 分 发 。 


I 启动 和 关闭 等 操作 ， 通 过 环形 缓冲 区 暂 存 并 传递 UDP 数据 包 ， 


Hashpipe 将 任务 传输 到 单独 的 线程 中 , 每 个 线程 之 间 共 享 内 存 缓冲 区 , 并 通过 信号 量 机 


制 控制 任务 实现 线程 间 互 斥 。 定 义 数 据 接收 线程 、 处 理 线程 、 输 出 线程 3 个 线程 ， 各 个 线程 


实现 各 自 的 任务 。 数 据 接收 线程 net_thread， 接 收 来 自 计 算 机 万 光 网 卡 的 高 速 网 络 数 据 包 ， 
根据 数据 包 格 式 提 取 文 件 头 和 有 效 数 据 并 解析 包头 ， 来 自 FPGA 的 数据 包 都 有 时 间 戳 ， 如 


果 无 序 到 达 ,， 可 以 重新 排列 为 适当 的 时 间 序列 ， 并 将 数据 写 入 第 一 个 输入 数据 缓冲 区 ,， 一旦 


连续 的 数据 块 写 满 ， 该 块 将 交 由 下 一 个 线程 处 理 "， 处 理 线程 gpu_thread 从 输入 数据 缓冲 


区 获取 数据 传输 至 GPU 执行 复杂 计算 ， 然 后 将 结果 写 入 输出 数据 缓冲 


区 ; 输出 线程 


output_thread 从 输出 数据 缓冲 区 获取 数据 ,将 其 写 入 文件 存储 在 磁盘 上 。 通 过 定义 监控 线程 


TRA FPGA 的 UDP 数据 包 ， 通 过 转 置 线程 重新 格式 化 数据 ， 使 时 间 样 本 在 内 存 中 正确 


对 齐 。 


后 端 由 C/C++ 编 号， 头 文件 中 定义 多 个 结构 体 变量 以 便 调用 ， 定 义 数据 缓冲 区 
hashpipe_databuf， 包 含 需 传输 的 数据 类 型 、 绥 冲 区 空间 的 大 小 、 绥 冲 区 ID、 数 据 存 储 块 数 、 


块 D 等 基本 信息 ; hashpipe_thread_desc 结构 用 于 存储 描述 Hashpipe 线程 的 元 数据 ; 
hashpipe_udp_params 结构 体 变 量 ， 用 于 保存 网 络 连接 参数 ， 包 括 端口 号 、 卫 、 数 据 包 的 大 
小 等 信息 。 hashpipe clean shmem0O 函数 用 来 清除 状态 缓冲 区 占用 ; 
hashpipe_status_unlock_safe(O)、hashpipe_status_lock_safeO 函 数 用 于 状态 缓冲 区 的 线程 安全 锁 


或 解锁 , 确保 状态 缓冲 区 处 于 锁定 状态 ,借助 Hashpipe 已 有 函数 基本 满足 了 数据 传输 需要 ， 


可 根据 实际 需求 实现 调用 。 


界面 监控 采用 David Macmahon 编写 的 ruby 程序 mb-Hashpipe， 作 为 Hashpipe 的 可 视 化 


202103.00137v1 
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前 端 可 以 展示 数据 包 接 收 、 线 程 状态 、 绥 冲 区 状态 等 信息 ， 在 更 高 级 别 将 管道 抽象 以 提供 简 
洁 和 直观 的 界面 监控 数据 。Hashpipe 及 rb-Hashpipe 均 可 部 署 在 服务 器 平台 ， 环 境 配 置 主要 
步骤 如 下 : 


(1) 更 新 GNU 系列 工具 到 最 新 版 本 提供 Hashpipe 编译 环境 ; 


(2) 安装 Ruby 管理 器 rvm; 

(3) 使 用 RubyGems 更 新 所 需 库 文 件 ; 
(4) 获取 Hashpipe 版 本 信息 并 实现 安装 ; 
(5) 配置 gnome 终端 在 shell 下 启动 。 
实现 数据 传输 状态 监控 界面 如 图 2 所 示 。 


图 root@gpuserver: /data/zm/zm/hashpipe/hashpipe demos/demol hashpipe-master | @ co [=| 54 


File Edit View Search Terminal Help 


Last update: Sat Dec 21 20:18:29 2019 - Press 'q' to quit, 0-9 to select 


图 2 数据 传输 监控 界面 


Figure 2 Data transmission monitoring interface 


1.3 PSRDADA 


PSRDADA 由 澳大利亚 斯 威 本 科技 大 学 开发 维护 , 支持 脉冲 星 信 号 分 布 式 采集 和 数据 分 
析 ， 主 要 运用 于 脉冲 星 基带 数据 记录 和 处 理 ， 管 理 从 ADC 信号 采样 到 GPU 集群 数据 分 析 


整个 过 程 的 数据 流 。PSRDADA 可 实现 APSR、BPSR、CASPSR 基带 记录 数据 分 发 管理 和 


监控 , 现 阶段 主要 应 用 于 澳大利亚 Parkes 的 ASPSR、BPSR、CASPSR、HIPSRW ,欧洲 PuMa-II 
等 射电 望远镜 的 终端 系统 ”。 

在 基础 层次 来 看 , PSRDADA 是 一 个 灵活 且 易 管理 的 环形 缓冲 区 ， 其 核心 功能 是 在 环形 
缓冲 区 之 间 传 递 数据 流 。 每 个 缓冲 区 划分 为 描述 文件 信息 的 文件 头 存储 块 ， 以 及 多 个 存储 数 


x 


7 https://researchdata.ands.org.au/psrdada-acquisition-distributed-analysis-software/185603 


据 的 子 块 ， 接 收 到 数据 时 


中 的 数据 可 以 读 取 。 利 


用 环形 组 


线程 并 行 在 多 个 环 


程 ， 


PSRDADA 
输 、 制 指 


置 文件 、 脚 本 等 ， 


命 令 、 控 


令 、 数 据 分 析 等 不 同 


按 顺 序 写 入 子 块 ， 当 
' 区 实现 对 数据 集 
缓冲 区 排队 ， 主 要 通过 共 
在 高 级 别 配置 来 看 ， 可 在 集群 中 各 节点 
管理 数据 的 传输 和 归档 。 

基于 模块 化 设计 实现 , 包括 


启动 PSRDADA 配置 ， 


享 内 存 、 


=A m] 
aD 


号 量 机 制 进行 


>. 


TH 


N 


操作 ; 


完成 分 布 式 工作 流程 中 各 种 基础 配置 


创建 环形 缓冲 区 ， 实 现 ; 


过 可 视 化 界面 


个 子 块 被 填 满 时 ， 标志 位 被 触发 ,表示 子 块 
进行 出 队 和 入 队 , 多 个 数据 集 可 以 利用 多 


线程 之 间 互 斥 通 HF 
监控 相关 流 


] 于 执行 特定 任务 的 独立 进程 ， 整齐 分 离 数 据 传 
进程 之 间 数 据 传输 ; 


配 


; 基于 web 的 月 


昌 户 接口 ， 提 供 基 于 


web 浏览 器 的 监控 界面 ， 并 可 通过 
基于 C 语言 实现 
令 行 执行 ，dada_db 可 以 创建 或 删除 一 个 缓冲 
令 实现 从 缓冲 区 数据 写 入 本 地 磁盘 ，dada_header 获取 数据 文件 
区 与 缓冲 区 及 缓冲 区 与 磁盘 间 


gridbus 发 送 到 远程 计算 设备 实现 远程 监控 。 


了 针对 APSR、BPSR、CASPSR、PUMA2 不 同 设备 的 相应 


PSRDADA 
T cares 
< 辟 的 缓冲 区 ，dada_dbdisk 命 
头 信 
BEE US 


PSRDADA 配置 与 


义 


，dada_dbmonitor 监控 已 开 


息 ，dada_dbcopydb、dada_dbdisk、dada_diskdb 实现 缓冲 


基本 使 用 步骤 如 下 : 
(1) 安装 或 更 新 PSRDADA 需要 的 GNU 工具 autoconf (2.59 及 以 上 版 本 )，automake 
(1.9.3 及 以 上 版 本 )，libtool (1.5.8 及 以 上 版 本 )，m4 (1.4 及 以 上 版 本 ); 
(2) 获取 dada 格式 的 数据 ; 
(3) 创建 特定 key 值 的 环形 缓冲 区 : $dada_db -k key_value; 
(4) 数据 写 入 环形 缓冲 区 : 
(5) 从 环 


(6) 实现 数据 读 写 过 程 中 的 状态 监控 : $dada_dbmonitor —k key_value; 


$dada_diskdb —k key_value -f filename.dada; 


缓冲 区 读 出 数据 : ~$dada_dbdisk —D . -k key_value —s; 


(7) 删除 特定 key 值 的 环形 缓冲 区 : $dada_db -k key_value -d。 
缓冲 区 创建 及 数据 传输 情况 如 图 3 所 示 ， 开 辟 共 享 内 存 键 为 100 的 缓冲 区 结构 ， 包 括 4 
个 大 小 为 524288bytes 的 数据 存储 缓冲 区 ， 总 容量 为 2MB，8 个 大 小 为 4096bytes 的 文件 头 
于 监控 界面 ， 实 现 对 文件 头 和 数据 组 


存储 缓冲 区 ， 总 容量 为 32KB 。dada_dbmonitor 命令 打开 


HX 


8 https://github.com/AA-ALERT/psrdada/tree/master/src 
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Created DADA deaet block with nhdrs = 8, 


:~$ dada db 
DADA data block with nbufs=4 bufsz=524288 nread=1 
hdrsz = 4096 bytes, 


reated 


HEADER BLOCK: 
Number of buffers: 8 


Buffer 
otal buffer memory: 32 KB 


size: 4096 


DATA BLOCK: 


Number of 


readers: 1 


Number of buffers: 4 


Buffer 
otal buffer memory: 2 MB 


1.4 Bifrost 


Bifrost 专门 为 射电 天 文 数字 信 
用 于 CPU 与 GPU 之 间 数 据 高 效 传输 。 
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图 3PSRDADA 创建 数据 缓冲 
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号 处 理 而 设计 ， 实 现 流 数据 处 理 高 性 能 管道 


nread=1 
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Figure 3 PSRDADA create data buffers 


现 阶段 Bifrost J 


的 高 性 能 后 端 ， 包 括 


ahg, 


其 中 接口 


现 数据 转换 ， 
流 的 管 


D 


Bifrost 安装 步骤 简洁 ， 适 


例如 bifrost.pipeline 处 理 管 道 


有 向 图 ， 为 月 


户 提供 高 级 视图 


bifrost.udp， 用 于 


Jil 


和 函数 都 被 称 为 块 , 通过 灵活 的 环形 缓冲 区 可 以 同时 实现 多 个 块 之 间 
时 执行 多 线程 ， 使 得 块 可 以 异步 操作 。 
将 结果 写 入 到 输出 环形 缓冲 区 ; 
道外 获取 数据 ， 将 数据 写 入 输出 缓冲 区 ; 
并 绘制 数据 的 块 ， 或 将 其 


写 入 文件 ”。 
合 快 速 部 署 ， 安装 完成 后 ， 通 过 import bifrost 实现 模块 调用 。 
首 构建 ， 首 先 自动 创建 环形 缓冲 区 ， 并 通过 
语句 执行 管道 ， 


bifrost.blocks 加 载 功能 块 ， 调 用 FFT、FDMT、 量 化 、 转 置 等 实现 数据 处 理 ; 


, pipeline.run + 


和 获 UDP 数据 包 ， 可 统计 并 分 析 包 传输 信息 。 如 果 数 据 流 传输 过 


? https://ledatelescope. github.io/bifrost/intro.html 


J 于 处 到 


H+ CPU 和 GPU | 


有 三 种 类 型 的 数据 块 : 
Source， 生 成 数据 的 块 ， 从 文件 或 以 太 网 数据 
sink， 可 以 直接 从 输入 环形 缓冲 区 读 取 数 据 


数据 结构 和 算法 ,为 干涉 测量 
上 数据 计算 与 


a. 


+ 


的 快速 开发 ， 


E LWA 的 数据 ， 实 现 了 在 波束 


] Python 实现 了 高 级 管道 接口 ， 可 用 于 数据 传输 ， 利用 C++ 实 现 了 支持 GPU 
系列 与 天 文 数据 处 理 相 关 的 高 性 能 
冲 星 消 色 散 、 计 时 及 瞬 态 信号 搜寻 等 应 用 而 设计 的 库 函 数 , 月 


、 脉 


fa, 同 


通 


tasks， 从 环 中 读 取 数 据 ， 并 实 


这 些 环形 缓冲 器 构建 


为 每 个 块 创建 一 个 线程 ， 通 过 
网 络 相关 模块 
十 程 中 ， 需 


chinaXiv:202103.00137v1 


Chinax ive ERAT 


要 一 些 中 间 操 作 ， 用 户 可 自 定义 模块 "。 
以 wav 格式 的 声音 文件 为 例 ，Bifrost 执行 步骤 一 般 为 ， 读 取 wav 文件 到 环形 缓冲 区 ; 
使 用 GPU FFT 实现 数据 信道 化 等 操作 ; 将 filterbank 文件 写 入 磁盘 。 
(1) 读 取 .wav 格式 的 文件 ; 
(2) 将 原始 数据 拷贝 到 GPU; 
(3) 将 时 间 轴 分 割 成 小 块 ， 对 新 生成 的 小 块 执行 FFT; 
(4) 取 这 些 FFT 模 的 平方 ; 
(5) 将 数据 转 置 为 sigproc 兼容 的 格式 ， 进 行 标准 化 ; 
(6) 将 数据 拷贝 到 CPU; 
(7) 将 数据 转换 为 整数 型 ， 并 将 数据 以 filterbank 存储 。 


x 


1.5 Kotekan 


Kotekan!'®! Andre Recnik 使 用 C/C++ 组 合 开 发 的 软件 框架 ， 主 要 应 用 于 射电 天 文 望 远 
镜 数 据 传输 ， 最 早 为 CHIME 后 端 应 用 开发 ， 旨 在 实现 更 高 的 效率 和 吞吐 量 “。 

Kotekan 管道 是 模块 化 的 ， 由 一 系列 对 数据 执行 不 同 操作 的 单元 组 成 ， 实 现 了 实时 管理 
X 引擎 上 数据 流 ， 包 括 接收 来 自 F 引擎 的 UDP 数据 包 ，GPU 结 点 内 数据 流 实 时 处 理 及 结果 
存储 。 核 心 结构 是 FIFO 环形 缓冲 区 , 通过 系统 内 存 中 环形 缓冲 区 , 实现 了 CPU 与 AMD GPU 
之 间 通 信 ， 及 传输 到 GPU 进行 处 理 之 前 数据 检查 和 和 暂 存 " "。 

Kotekan 创建 网 络 线程 、GPU 线程 、GPU 回调 线程 、GPU 后 处 理 线程 和 输出 线程 ， 
个 线程 都 与 一 个 或 多 个 环形 缓冲 区 对 象 的 接口 相关 联 , 接收 到 的 数据 均 通过 环形 缓冲 区 暂 存 ， 
实现 边 读 边 写 , 这 些 线程 和 缓冲 区 形成 了 如 图 4 所 示 的 数据 路 径 , 管道 可 以 多 线程 并 行 的 产 
生 多 个 结果 数据 集 。 
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10 https://github.com/ledatelescope/bifrost 
1 http://lwlab.dunlap.utoronto.ca/kotekan/overview.html 
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Figure 4 Data flow in Kotekan 


缓冲 数据 由 Kotekan::stage 处 理 模块 写 入 和 读 取 ， 从 网 络 或 外 部 设备 获取 数据 ， 通 过 数 
据 处 理 算法 实现 数据 操作 ， 最 后 将 处 理 后 的 数据 通过 网 络 传输 或 存储 于 本 地 。 


1.6 Pelican 


Pelican09 是 由 牛津 电子 


心 开发 的 实时 数据 流 处 理 框架 ,具备 高 效 、 模块 化 、 轻 量 级 、 


可 校准 的 特点 ， 主 要 应 用 于 LOFAR 和 BESTII， 通 过 GPU 服务 器 对 数据 进行 并 行 处 理 。 


Pelican 提供 了 高 度 抽象 的 API， 适 合用 于 静态 、 准 实时 处 理 。 

Pelican 用 C++ 实现 了 可 重用 的 模块 化 组 件 ， 分 离 了 数据 的 获取 和 处 理 ， 具 有 灵活 性 和 
JHE, ie UDP 数据 的 机 制 ， 将 数据 流传 递 给 各 计算 服务 器 ， 完 成 数据 缓冲 、 处 理 
和 最 后 文件 写 入 , 可 对 望远镜 接收 数据 进行 实时 处 理 ， 也 可 用 于 任何 需要 处 理 传 入 数据 流 的 


` 


EE 


FEF”, 


Pelican 可 用 于 脉冲 星 搜寻 的 数据 预 处 理 , SKA 早期 计划 使 用 Pelican 处 理 非 成 图 的 基于 
GPU 实时 射电 脉冲 检测 所 ， 流 程 如 图 5 所 示 ， 首 先 通过 软件 服务 器 读 取 UDP BE, ERE 
带 频 谱 干 扰 的 峰值 ， 实 现 GPU 中 进一步 窄带 划分 ， 完 成 复杂 数据 到 功率 数据 的 转换 ， 将 数 
据 传输 至 GPU 处 理 模块 执行 分 散 搜索 算法 1。 


Pelican server 


Collecting the data 


dispersion search 


图 5 SKA 计划 利用 Pelican 实现 数据 处 理 流程 


Figure 5 SKA plans to use Pelican for data processing 


短 时 间 内 成 像 导 致 非常 大 的 相关 器 输出 速率 , 为 了 实现 数据 传输 速率 并 产生 更 新 的 校准 
系数 ， 需 对 输出 数据 流 进行 实时 处 理 。Pelican 可 用 于 实现 射电 望远镜 数据 转换 成 科学 图 像 
之 前 的 数据 校准 和 成 像 方程 求解 。Pelican 实现 科学 成 像 的 框架 如 图 6 所 示 ， 接 收 来 自 
ROACH2 的 子 带 数据 ， 通 过 实时 更 新 相关 器 的 相位 和 振幅 系数 ， 提 供 初始 校准 ， 然 后 基于 
GPU 的 2D-FFT 生成 脏 图 像 ， 洁 化 后 执行 基于 特定 步 长 的 图 像 差分 比较 ， 阔 值 检 测 器 用 来 发 
现 瞬 态 事件 ， 最 后 堆 释 模块 用 来 形成 一 个 高 动态 范围 的 图 像 ”。 


12 http://www-astro.physics.ox.ac.uk/~FosterG/ppp/lofar_poster_ursi_03.pptx 
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图 6 Pelican 实现 成 像框 架 
Figure 6 Pelican realized imaging framework 
1.7 Cobalt 


Cobalt 是 基于 GPU 设计 与 开发 的 LOFAR 2230 SHIRAI RO, BORED 
分 实现 了 数据 管道 ， 用 于 管理 通过 网 络 和 CPU, GPU 的 数据 流 ， 并 完成 数据 存储 。 
图 7 为 数据 流 从 外 部 系统 到 Cobalt 内 部 数据 流 示意 图 ， 接 收 数 据 存 入 输入 缓冲 区 ， 完 
成 子 带 处 理 后 进行 存储 ， 模 块 间 以 all-to-all 模式 进行 通信 。 
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Input Buffering Storage Cluster 


Processing 


PR] 


图 7 Cobalt 数据 流 示意 


Figure 7 Cobalt data flow 


Cobalt 的 软件 由 几 个 交互 子 系统 组 成 ， 管 理 来 自 网 络 的 数据 流 ， 实 现 高 速率 、 可 持续 数 
据 传输 ， 并 持久 性 存储 数据 ， 进 行 控制 、 监 控 、 记 录 日 志和 元 数据 。 图 8 显示 了 Cobalt 的 
组 件 、 依 赖 关 系 和 数据 流 ,Cobalt 处 理 大 量 独立 的 数据 流 , 每 个 AntennaFieldInput 接收 10GbE 
端口 的 UDP 数据 包 ， 并 将 有 效 数 据 转发 到 TransposeSender， 通 过 环形 缓冲 区 移动 整数 倍 执 
行 延迟 补偿 。 这 些 数据 流 在 没有 相互 依赖 的 情况 下 结合 MPI 实现 并 行 处 理 ，GPU 上 的 信和 号 


处 理 管道 GPUpipeline 包含 TransposeReceiver 组 件 ,传输 子 带 数 据 ,与 MPI Isend 和 MPI Irecv 


非 阻塞 发 送 和 接收 相 结 


H 


casacore 以 MeasurementSet 或 HDF5 格式 存储 1。 


合 传输 相关 或 波束 数据 。 输 出 组 件 接收 GPU 子 带 数 据 ， 最 终 使 用 
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Cobalt 可 以 处 理 离线 任务 ， 


Ds 


8 Cobalt 组 件 依赖 关系 和 数 ] 
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Figure 8 Cobalt component dependencies and data flow 


包括 自 


动 标 记 、 校 准 、 平 均 、 脉 冲 星 数据 相干 消 


ff 


Ly 


散 和 动态 


光谱 产生 以 及 脉冲 星 数 据 在 线 折 车 和 搜索 。Cobalt 具备 可 扩展 性 ， 如 子 阵列 并 行 观测 、 中 断 


响应 以 及 其 他 的 观测 模式 。 在 
著 的 提高 , 例如 低 波 段 天 线 和 


网 络 带宽 和 计算 能 力 方 


[高 


数据 ，Cobalt 因 拥 有 


2 面临 的 问题 


现 阶 段 数 据 流 管道 软件 面临 
(1) 现 有 射电 天 文 数据 
并 不 适用 于 所 有 类 型 的 观测 设备 及 观测 模式 。 针 对 具体 观测 
系统 需求 来 实现 相应 的 软件 功能 ,部 分 软件 系统 虽然 可 移植 


全 部 功能 ， 需 要 深入 研究 


用 时 并 不 需要 其 
难度 大 。 


上 


U 


EKKE 


MA 


的 重点 与 难点 : 


ps As + 


流 管道 


和 数据 实时 处 理 


E. 
=, 


， 提 供 
波段 天 线 的 并 行 观 测 。 一 般 来 说 相关 器 
吐 能 力 可 以 同时 处 到 

现 已 有 更 新 版 本 Cobalt 2.0, 具备 更 好 的 灵活 性 和 吞吐 
更 大 限度 利用 GPU 的 优势 ， 实 现 高 性 


了 显著 的 额外 容量 ， 效 率 有 显 


处 理 单个 项 目的 


只 能 


多 个 项 目 数据 ”。 


接收 数据 量 速率 超过 1TB/s, 


o 


CAIDA Rit, ERE ERT R, 
设备 , 应 根据 各 观测 设备 的 接收 


到 不 同 的 观测 设备 终端 系统 , 使 
底层 代码 ， 完 成 二 次 开发 及 调试 ， 开 发 成 本 高 、 


B https://www.astron.nl/what-we-look-forward-to-in-lofar-2-0-a-brain-transplant-for-lofar/ 
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(2) 已 有 大 型 射电 望远镜 终端 系统 ， 多 采用 基于 Xilinx FPGA 的 ROACH 系列 、SNAP 
系列 硬件 板 卡 ， 近 几 年 推出 了 集成 度 更 高 的 RFSoC， 可 提供 高 速 以 太 网 数据 传输 接口 ， 对 
服务 器 端 数据 流 实 时 接收 能 力 提出 了 更 高 的 要 求 。 部 署 在 服务 器 端的 管道 需要 满足 基于 
RFSoC 平台 更 高 带宽 的 数据 接收 需求 ， 提 升 数据 传输 效率 。 

(3) 数据 实时 高 效 传输 与 处 理 能 力 是 管道 软件 性 能 提升 方向 ， 数 据 处 理 平 台 多 采用 
GPU 集群 实现 大 规模 数据 处 理 ， 然 而 数据 分 发 与 收集 并 没有 得 到 有 效 的 处 理 ， 高 效 实现 数 
据 流 在 多 GPU 上 的 分 发 与 汇总 ， 将 大 大 提高 传输 与 计算 效率 。 

(4) 为 满足 多 功能 数字 终端 系统 的 数据 处 理 要 求 ， 应 形成 一 套 配 置 灵 活 的 系统 软件 ， 
构建 的 管道 软件 应 实现 数据 处 理 与 分 析 所 需 算法 , 针对 不 同 观测 模式 提供 可 调用 的 类 库 , 满 


足 多 观测 课题 的 需求 。 


3 大 口径 射电 望远镜 数据 流 管道 软件 设计 思路 


应 用 于 大 口径 射电 望远镜 数据 流传 输 与 处 理 的 管道 软件 , 作为 多 功能 终端 系统 软件 中 重 
要 的 组 成 部 分 ， 将 完成 数据 流 获取 、 传 输 、 管 理 与 监控 。 高 效 捕获 并 暂 存 来 自 FPGA 的 网 
络 数据 包 ， 实 现 数据 在 CPU 与 GPU 之 间 高 速 流 转 及 相关 处 理 ， 提 供 GPU 内 部 数据 处 理 算 
法 调用 , 实现 原始 数据 格式 到 标准 文件 格式 的 转换 及 数据 类 型 的 匹配 ， 最 终 数据 高 效 写 入 磁 
盘存 储 。 


x 3. 1 基于 零 拷贝 和 环形 绥 冲 区 的 数据 传输 


QTT 多 功能 数字 终端 采用 FPGA+GPU 集群 架构 模式 ， 如 图 9 所 示 己 ]。RFSoC 实现 数 


据 采 样 和 预 处 理 ， 单 块 RFSoC 芯片 可 实现 8 通道 ， 每 通道 最 大 采样 速率 4.096GSPS，12bit 
采样 ,采样 后 每 通道 的 数据 量 约 为 48Gbps; 经 过 RFSoC 预 处 理 将 采样 数据 划分 成 多 个 子 带 ， 
利用 RFSoC 提供 100Gb 的 数据 传输 接口 ， 通 过 高 速 以 太 网 传输 至 GPU 集群 实现 数据 相关 
联 进行 数据 预 处 理 。 
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Figure 9 The block diagram of QTT backend system 


图 9 QTT 终端 系统 框架 
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图 10 标准 数据 传输 与 零 拷 贝 数据 传输 


Figure 10 Standard data transfer and zero-copy data transfer 


网 络 数据 传输 使 用 UDP 协议 ， 网 卡 缓冲 区 中 数据 通过 Linux 内 核 协议 栈 传输 至 用 户 应 
程序 ， 数 据 包 在 内 核 态 与 用 户 态 之 间 找 贝 ， 系 统 消耗 大 且 存 在 传输 瓶颈 , 为 了 有 效 降 低 系 
统 资源 占用 ， 满 足 GPU 服务 器 端 传输 的 低 丢 包 率 和 低 延 迟 ，GPU 服务 器 端 可 基于 零 找 贝 技 
术 实现 高 VO 环境 下 的 高 性 能 数据 获取 ， 对 比如 图 10 所 示 。 管 道 软件 实现 基于 零 拷贝 的 数 
据 传 输 模块 , 创建 并 行 网 络 输入 线程 在 用 户 态 以 轮 询 方式 读 取 网 卡 缓冲 区 中 数据 包 , 实时 写 
入 动态 创建 的 环形 缓冲 区 ,避免 标准 内 核 协议 栈 的 处 理 , 减少 网 卡 到 管道 软件 过 程 中 的 数据 
拷贝 次 数 ， 以 提高 数据 访问 效率 。 


3.2 基于 GPU 集群 的 数据 实时 处 理 


基于 混合 架构 的 QTT 多 功能 终端 系统 计划 实现 脉冲 星 、 暂 现 源 、 分 子 谱 线 、 总 功率 、 
VLBI、 基 带 数 据 等 多 种 观测 模式 ，GPU 集群 内 部 数据 流 如 图 10 Aras, FPGA 预 处 理 后 的 数 
据 传输 至 GPU 集群 实现 数据 处 理 ， 数 据 流 经 解码 、RFI 消减 后 ， 针 对 不 同 观测 模式 完成 相 


应 处 理 ， 并 最 终 以 VDIF、PSRDada 或 PSRFITS 等 格式 存储 。 
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Figure10 QTT multifunctional digital backend GPU cluster internal data flow 
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管道 软件 应 提供 GPU 内 部 数据 处 理 模 块 ， 并 应 充分 整合 天 文学 算法 ， 实 现 解 码 、RFI 
识别 、 校 准 、 折 麦 、 标 准 格式 输出 等 常用 功能 ， 实 现 到 标准 文件 格式 的 转换 及 数据 类 型 的 匹 
配 。 基 于 Web 提供 友好 的 访问 界面 ， 以 横 块 化 的 方式 提供 更 好 的 灵活 性 并 支持 扩展 ， 提 供 
户 自 定 义 横 块 功能 ， 人 允许 用 户 根据 实际 需求 调用 模块 或 编写 自 定义 横 块 。 

针对 QTT 多 功能 数字 终端 数据 流 , 管道 软件 数据 传输 过 程 的 顶层 结构 如 图 11 所 示 。 网 
络 线程 捕获 来 自 RFSoC 的 数据 并 存放 至 输入 数据 环形 缓冲 区 , 管道 软件 运行 在 多 台 GPU 服 
务 器 上 , 每 台 GPU 服务 器 接收 一 个 频率 通道 子 带 , 为 实现 GPU 集群 上 多 线程 并 行 和 分 布 式 
执行 , 高 效 及 时 运行 和 数据 块 转发 , 集群 节点 中 结合 MPI 实现 数据 的 分 发 和 获取 , 采用 MPI 
提供 的 非 阻塞 消息 接收 与 发 送 调用 接口 MPI Isend、MPI Irecv， 实 现 计 算 和 通信 重 八 进行 ， 
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Ds 


11 数据 传输 流程 


Figure 11 Data transmission flowchart 


3.3 基于 BeeGFS 的 数据 存储 


随 着 数据 量 的 迅速 增加 ，HPC 系统 需要 更 复杂 、 更 高 效 的 方法 管理 与 存储 大 量 数据 。 
通过 部 署 分 布 式 文件 系统 将 数据 分 布 到 众多 存储 设备 上 , 对 数据 进行 分 布 式 存储 和 管理 , SE 
现 分 布 式 读 写 。 借 助 并 行 分 布 式 文件 系统 BeeGFS 构建 更 高 效 的 数据 存储 后 端 ， 提 高 IO 
性 能 ， 实 现 高 性 能 和 可 扩展 性 。 
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14 https://www.beegfs.io/c/ 
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图 12 基于 BeeGFS 的 数据 存储 系统 


Figure 12 Data storage system based on BeeGFS 


基于 BeeGFS 的 数据 存储 系统 整体 框架 如 图 12 Stas, GPU 集群 处 理 后 的 数据 ， 进 行 整 
合 后 封装 成 特定 的 格式 , 通过 构建 并 行 输出 管理 线程 同时 传输 一 个 或 者 多 个 数据 流 , 相同 格 
式 的 数据 写 入 同一 环形 缓冲 区 ,传输 至 文件 存储 系统 ,通过 BeeGFS 提供 的 Client 读 写 数据 ， 
利用 多 个 独立 IO 实现 高 并 发 读 写 。 基 于 BeeGFS 分 布 式 文件 系统 实现 元 数据 分 离 ， 分 别 利 
FA MDS. OSS 的 本 地 文件 系统 承载 元 数据 和 数据 的 存储 ， 其 中 文件 头 中 包含 的 日 期 时 间 、 
观测 环境 参数 等 观测 信息 ,作为 元 数据 信息 的 主要 组 成 部 分 , 存储 于 元 数据 服务 器 。 MDS、 
OSS 以 及 Client 的 扩展 性 使 得 基于 BeeGFS 数据 存储 系统 能 够 满足 大 规模 数据 存储 扩展 需求 。 


4 结语 


射电 天 文 望 远 镜 数字 终端 系统 越 来 越 依赖 实时 处 理 来 克服 数据 存储 和 分 析 的 瓶颈 , 天 文 
领域 已 经 开发 并 研究 了 数据 流 处 理 管道 , 用 以 提高 数据 传输 和 处 理 的 效率 , 简化 天 文学 家 数 
据 处 理 代码 开发 难度 。 文章 综述 了 现 有 射电 天 文 数据 传输 管道 软件 , 介绍 了 射电 天 文 数据 传 
输 管道 软件 的 结构 、 功能 , 并 在 GPU 服务 器 上 进行 了 测试 。 在 总 结 现 有 管道 软件 的 基础 上 ， 
给 出 了 未 来 大 口径 射电 望远镜 多 功能 终端 系统 应 根据 实际 观测 需求 设计 数据 传输 管道 的 
般 思 路 ， 未 来 多 功能 数字 终端 系统 基于 FPGA+GPU 实现 ， 应 该 向 易 升 级 、 改 造 、 灵 活 、 可 
扩展 的 方向 发 展 。 
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Efficient real-time data transmission and processing technologies 
applied to radio astronomy 
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Abstract : Aiming at problems of massive signals real-time transmission and processing in 
ultra-wideband and multi-beam receiving systems, tested and analyzed the related software of the 
mainstream backend system based on FPGA+GPU, the ultra-wide band receiving equipment 
requires the backend system software to be capable of wider bandwidth and higher time resolution 
and higher frequency resolution conditions, realized real-time data stream transmission and 
processing. Combined with the future development direction of large aperture radio observation 
equipment, it was proposed to use high-speed parallel ring buffers to achieve data stream caching, 
GPU clusters to achieve data stream real-time processing, and distributed parallel data storage 
based on BeeGFS, modular construction of data stream transmission pipelines software design 
ideas. 

Key words: Data transmission and processing; Radio astronomy; Real-time; FPGA+GPU 


